2 Análisis Exploratorio de Datos
2.1 Resumen Ejecutivo
2.1.1 Nombre del conjunto de datos
KOI(Kepler Objects of Interest) cumulative table.
2.1.2 Propósito de los datos
La tabla acumulativa de KOI recopila información de las tablas individuales de actividad KOI que describen los resultados actuales de diferentes búsquedas de las curvas de luz de Kepler. El propósito de la tabla acumulativa es proporcionar en un solo lugar las disposiciones más precisas, así como información estelar y planetaria para todos los KOI. Toda la información en esta tabla tiene su origen en otras tablas de actividad KOI.
2.1.3 Origen
2.1.3.1 a) Origen de los datos
Los datos han sido recogidos por el observatorio espacial Kepler de la NASA a lo largo de casi 10 años. Para más información acerca del satélite, ver Wikipedia - Telescopio Espacial Kepler.
2.1.3.2 b) Origen del conjunto de datos
NASA Exoplanet Archive. NASA Exoplanet Science Institute. https://exoplanetarchive.ipac.caltech.edu/cgi-bin/TblView/nph-tblView?app=ExoTbls&config=cumulative.
2.1.3.3 c) Fecha de descarga
Diciembre de 2023.
2.1.4 Usos anteriores del conjunto de datos.
2.1.4.1 a) Uso original:
Detectar planetas fuera de nuestro sistema solar, es decir, exoplanetas.
2.1.4.2 b) Otros usos:
Dado que el conjunto de datos es público, ha sido ampliamente utilizado en numerosos trabajos. A continuación, se citan algunos ejemplos:
El trabajo realizado por Aditeya Baral (@aditeyabaral), Ameya Bhamare (@ameyabhamare), y Saarthak Agarwal (@saarthak-agarwal) se encuentra disponible en el repositorio de GitHub: kepler-exoplanet-analysis.
Batalha, N. M. (2014). “Exploring exoplanet populations with NASA’s Kepler Mission.” Proceedings of the National Academy of Sciences (PNAS).
2.1.5 Número de instancias.
Un total de 9564 observaciones.
2.1.6 Información de los atributos.
En el conjunto de datos aparecen varios tipos de IDs: kepid es el identificador asociado a una observación específica, kepler_name es el nombre de dicha estrella y kepoi_name es el nombre asociado a un candidato a exoplaneta. También aparece koi_disposition que es la disposición del archivo de exoplanetas que nos dirá como clasifican las observaciones entre CANDIDATE, FALSE POSITIVE, CONFIRMED y en el caso de la disposición de Kepler koi_pdisposition como CANDIDATE o FALSE POSITIVE. Además también aparecen otras 22 variables para determinar la disposición de la observación.
| Nombre | Tipo de dato | Unidad de medida | Descripción |
|---|---|---|---|
| kepid | Identificador único | - | Identificación única del objeto de interés |
| kepoi_name | Identificador único | - | Identificación única del objeto de interés dado por Kepler. |
| kepler_name | Nominal | - | Nombre del planeta según la nomenclatura de Kepler. |
| koi_disposition | Nominal | - | Disposición del Archivo de Exoplanetas. |
| koi_pdisposition | Nominal | - | Disposición utilizando Datos de Kepler. |
| koi_score | Continuo | - | Puntuación de Disposición. |
| koi_fpflag_nt | Binario | - | Bandera de Falso Positivo No Similar a Tránsito. |
| koi_fpflag_ss | Binario | - | Bandera de Falso Positivo Eclipse Estelar. |
| koi_fpflag_co | Binario | - | Bandera de Falso Positivo Desplazamiento del Centroide. |
| koi_fpflag_ec | Binario | - | Bandera de Falso Positivo Contaminación Indicada por Coincidencia Efeméride. |
| koi_period | Continuo | Días | Período Orbital en días. |
| koi_period_err1 | Continuo | Días | Incertidumbre Superior del Período Orbital en días. |
| koi_period_err2 | Continuo | Días | Incertidumbre Inferior del Período Orbital en días. |
| koi_time0bk | Continuo | BKJD (Barycentric Kepler Julian Date) | Época de Tránsito en BKJD (Barycentric Kepler Julian Date). |
| koi_time0bk_err1 | Continuo | BKJD (Barycentric Kepler Julian Date) | Incertidumbre Superior de la Época de Tránsito en BKJD. |
| koi_time0bk_err2 | Continuo | BKJD (Barycentric Kepler Julian Date) | Incertidumbre Inferior de la Época de Tránsito en BKJD. |
| koi_impact | Continuo | - | Parámetro de Impacto. |
| koi_impact_err1 | Continuo | - | Incertidumbre Superior del Parámetro de Impacto. |
| koi_impact_err2 | Continuo | - | Incertidumbre Inferior del Parámetro de Impacto. |
| koi_duration | Continuo | Horas | Duración del Tránsito en horas. |
| koi_duration_err1 | Continuo | Horas | Incertidumbre Superior de la Duración del Tránsito en horas. |
| koi_duration_err2 | Continuo | Horas | Incertidumbre Inferior de la Duración del Tránsito en horas. |
| koi_depth | Continuo | ppm (partes por millón) | Profundidad del Tránsito en partes por millón (ppm). |
| koi_depth_err1 | Continuo | ppm (partes por millón) | Incertidumbre Superior de la Profundidad del Tránsito en ppm. |
| koi_depth_err2 | Continuo | ppm (partes por millón) | Incertidumbre Inferior de la Profundidad del Tránsito en ppm. |
| koi_prad | Continuo | Radios Terrestres | Radio Planetario en radios terrestres. |
| koi_prad_err1 | Continuo | Radios Terrestres | Incertidumbre Superior del Radio Planetario en radios terrestres. |
| koi_prad_err2 | Continuo | Radios Terrestres | Incertidumbre Inferior del Radio Planetario en radios terrestres. |
| koi_teq | Continuo | Kelvin | Temperatura de Equilibrio en Kelvin. |
| koi_teq_err1 | Continuo | Kelvin | Incertidumbre Superior de la Temperatura de Equilibrio en Kelvin. |
| koi_teq_err2 | Continuo | Kelvin | Incertidumbre Inferior de la Temperatura de Equilibrio en Kelvin. |
| koi_insol | Continuo | Flujo Terrestre | Flujo de Insolación en flujo terrestre. |
| koi_insol_err1 | Continuo | Flujo Terrestre | Incertidumbre Superior del Flujo de Insolación en flujo terrestre. |
| koi_insol_err2 | Continuo | Flujo Terrestre | Incertidumbre Inferior del Flujo de Insolación en flujo terrestre. |
| koi_model_snr | Continuo | - | Relación señal-ruido del tránsito. |
| koi_tce_plnt_num | Entero | - | Número de Planeta TCE. |
| koi_tce_delivname | Nominal | - | Entrega TCE. |
| koi_steff | Continuo | Kelvin | Temperatura Efectiva Estelar en Kelvin. |
| koi_steff_err1 | Continuo | Kelvin | Incertidumbre Superior de la Temperatura Efectiva Estelar en Kelvin. |
| koi_steff_err2 | Continuo | Kelvin | Incertidumbre Inferior de la Temperatura Efectiva Estelar en Kelvin. |
| koi_slogg | Continuo | \(log_{10}(cm/s^2)\) | Gravedad Superficial Estelar en \(log_{10}(cm/s^2)\) . |
| koi_slogg_err1 | Continuo | \(log_{10}(cm/s^2)\) | Incertidumbre Superior de la Gravedad Superficial Estelar en \(log_{10}(cm/s^2)\) . |
| koi_slogg_err2 | Continuo | \(log_{10}(cm/s^2)\) | Incertidumbre Inferior de la Gravedad Superficial Estelar en \(log_{10}(cm/s^2)\) . |
| koi_srad | Continuo | Radios Solares | Radio Estelar en radios solares. |
| koi_srad_err1 | Continuo | Radios Solares | Incertidumbre Superior del Radio Estelar en radios solares. |
| koi_srad_err2 | Continuo | Radios Solares | Incertidumbre Inferior del Radio Estelar en radios solares. |
| ra | Continuo | Grados Decimales | Ascensión Recta en grados decimales. |
| dec | Continuo | Grados Decimales | Declinación en grados decimales. |
| koi_kepmag | Continuo | - | Magnitud en la banda Kepler. |
Cantidad de atributos por tipo:
El conjunto de datos incluye un total de 49 atributos. Entre ellos, tenemos 2 identificadores únicos, hay 4 atributos categóricos, los cuales son nominales. Además, se presentan 16 atributos numéricos, distribuidos en 9 atributos continuos y 7 atributos discretos. Por último, hay que mencionar que aparecen 22 atributos de errores que indican el error superior e inferior de 11 variables.
2.2 Introducción
Desde los inicios de nuestra especie hemos observado el firmamento. Nuestra innata curiosidad buscaba respuestas a lo que podíamos ver y hasta recientemente en la historia no hemos sido capaces de responder con seguridad. Aún así, hay muchas preguntas aún sin respuesta y por ello seguimos explorando el universo en el que vivimos. ¿Cúal es nuestro origen?¿Estamos solos?¿Podemos habitar otro planeta?
Con el objetivo de responder a estas preguntas lanzamos satélites y sondas desde el siglo anterior. Hasta lanzar el observatorio espacial Kepler el 7 de marzo de 2009 la cifra de exoplanetas conocidos era inferior a la que Kepler eventualmente contribuyó a descubrir.
El Observatorio Espacial Kepler, lanzado en 2009, jugó un papel fundamental en el aumento significativo del número de exoplanetas conocidos. Utilizando el método de tránsito, Kepler observó la disminución en el brillo de las estrellas cuando un planeta pasaba frente a ellas, lo que permitió identificar y confirmar numerosos exoplanetas.
El telescopio Kepler proporcionó datos valiosos para la misión de búsqueda de exoplanetas, y su sucesor, el Telescopio Espacial TESS (Transiting Exoplanet Survey Satellite), lanzado en 2018, continuó esta tarea al identificar exoplanetas adicionales en diferentes regiones del cielo.
En este análisis de datos estudiaremos los datos que recogió dicho observatorio a lo largo de casi 10 años de misión hasta que vació sus reservas de combustible. Estudiaremos las variables que medía e intentaremos descubrir alguna forma para predecir si una observación es un exoplaneta o no.
2.3 Eliminación de las variables que miden errores
En primer lugar, cargamos el conjunto de datos y mostramos sus primeras filas
suppressMessages({
suppressWarnings({
library(rhandsontable)
library(dplyr)
library(corrplot)
library(ggplot2)
library(skimr)
library(caTools)
library(MASS)
library(dplyr)
library(rgl)
library(caret)
library(factoextra)
library(plot3D)
options(scipen = 999)
})
})
datos <- read.csv("C:/Users/Miguel/Downloads/cumulative_2023.12.31_07.27.29.CSV",header = TRUE)
columnas_disponibles <- colnames(datos)
tabla_interactiva <- rhandsontable(datos, selectCallback = TRUE)
tabla_interactiva